智能论文笔记

Toward Efficient Language Model Pretraining and Downstream Adaptation via Self-Evolution: A Case Study on SuperGLUE

Qihuang Zhong , Liang Ding , Yibing Zhan , Yu Qiao , Yonggang Wen , Li Shen , Juhua Liu , Baosheng Yu , Bo Du , Yixin Chen

分类：自然语言处理

2022-12-04

This technical report briefly describes our JDExplore d-team's Vega v2 submission on the SuperGLUE leaderboard. SuperGLUE is more challenging than the widely used general language understanding evaluation (GLUE) benchmark, containing eight difficult language understanding tasks, including question answering, natural language inference, word sense disambiguation, coreference resolution, and reasoning. [Method] Instead of arbitrarily increasing the size of a pretrained language model (PLM), our aim is to 1) fully extract knowledge from the input pretraining data given a certain parameter budget, e.g., 6B, and 2) effectively transfer this knowledge to downstream tasks. To achieve goal 1), we propose self-evolution learning for PLMs to wisely predict the informative tokens that should be masked, and supervise the masked language modeling (MLM) process with rectified smooth labels. For goal 2), we leverage the prompt transfer technique to improve the low-resource tasks by transferring the knowledge from the foundation model and related downstream tasks to the target task. [Results] According to our submission record (Oct. 2022), with our optimized pretraining and fine-tuning strategies, our 6B Vega method achieved new state-of-the-art performance on 4/8 tasks, sitting atop the SuperGLUE leaderboard on Oct. 8, 2022, with an average score of 91.3.

translated by 谷歌翻译

Time-reversal equivariant neural network potential and Hamiltonian for magnetic materials

Hongyu Yu , Yang Zhong , Junyi Ji , Xingao Gong , Hongjun Xiang

分类：机器学习

2022-11-21

This work presents Time-reversal Equivariant Neural Network (TENN) framework. With TENN, the time-reversal symmetry is considered in the equivariant neural network (ENN), which generalizes the ENN to consider physical quantities related to time-reversal symmetry such as spin and velocity of atoms. TENN-e3, as the time-reversal-extension of E(3) equivariant neural network, is developed to keep the Time-reversal E(3) equivariant with consideration of whether to include the spin-orbit effect for both collinear and non-collinear magnetic moments situations for magnetic material. TENN-e3 can construct spin neural network potential and the Hamiltonian of magnetic material from ab-initio calculations. Time-reversal-E(3)-equivariant convolutions for interactions of spinor and geometric tensors are employed in TENN-e3. Compared to the popular ENN, TENN-e3 can describe the complex spin-lattice coupling with high accuracy and keep time-reversal symmetry which is not preserved in the existing E(3)-equivariant model. Also, the Hamiltonian of magnetic material with time-reversal symmetry can be built with TENN-e3. TENN paves a new way to spin-lattice dynamics simulations over long-time scales and electronic structure calculations of large-scale magnetic materials.

translated by 谷歌翻译

Generalized Parametric Contrastive Learning

Jiequan Cui , Zhisheng Zhong , Zhuotao Tian , Shu Liu , Bei Yu , Jiaya Jia

分类：计算机视觉

2022-09-26

在本文中，我们提出了广义参数对比度学习（GPACO/PACO），该学习在不平衡和平衡数据上都很好地工作。基于理论分析，我们观察到，受监督的对比损失倾向于偏向高频类别，从而增加了学习不平衡的学习难度。我们从优化的角度介绍了一组参数班的可学习中心，以重新平衡。此外，我们在平衡的环境下分析了GPACO/PACO损失。我们的分析表明，GPACO/PACO可以适应地增强同一等级样品的强度，因为将更多的样品与相应的中心一起拉在一起并有益于艰难的示例学习。长尾基准测试的实验表明了长尾识别的新最先进。在完整的Imagenet上，与MAE模型相比，从CNN到接受GPACO损失训练的视觉变压器的模型显示出更好的泛化性能和更强的鲁棒性。此外，GPACO可以应用于语义分割任务，并在4个最受欢迎的基准测试中观察到明显的改进。我们的代码可在https://github.com/dvlab-research/parametric-contrastive-learning上找到。

translated by 谷歌翻译

Evaluation of Look-ahead Economic Dispatch Using Reinforcement Learning

Zekuan Yu , Guangchun Ruan , Xinyue Wang , Guanglun Zhang , Yiliu He , Haiwang Zhong

分类：人工智能

2022-09-21

现代电力系统正在经历由可再生能源驱动的各种挑战，该挑战要求开发新颖的调度方法，例如增强学习（RL）。对这些方法以及RL药物的评估很大程度上受到探索。在本文中，我们提出了一种评估方法，以分析RL代理的性能在审查的经济调度方案中。这种方法是通过扫描多个操作方案来进行的。特别是，开发了一种方案生成方法来生成网络方案和需求方案进行评估，并且根据电力流的变化率汇总了网络结构。然后，定义了几个指标来从经济和安全的角度评估代理商的绩效。在案例研究中，我们使用经过改进的IEEE 30总线系统来说明拟议的评估方法的有效性，模拟结果揭示了对不同情况的良好和快速适应。不同的RL代理之间的比较也很有帮助，可以为更好地设计学习策略提供建议。

translated by 谷歌翻译

Human Performance Modeling and Rendering via Neural Animated Mesh

Fuqiang Zhao , Yuheng Jiang , Kaixin Yao , Jiakai Zhang , Liao Wang , Haizhao Dai , Yuhui Zhong , Yingliang Zhang , Minye Wu , Lan Xu

分类：计算机视觉

2022-09-18

最近，我们看到了照片真实的人类建模和渲染的神经进展取得的巨大进展。但是，将它们集成到现有的下游应用程序中的现有网络管道中仍然具有挑战性。在本文中，我们提出了一种全面的神经方法，用于从密集的多视频视频中对人类表演进行高质量重建，压缩和渲染。我们的核心直觉是用一系列高效的神经技术桥接传统的动画网格工作流程。我们首先引入一个神经表面重建器，以在几分钟内进行高质量的表面产生。它与多分辨率哈希编码的截短签名距离场（TSDF）的隐式体积渲染相结合。我们进一步提出了一个混合神经跟踪器来生成动画网格，该网格将明确的非刚性跟踪与自我监督框架中的隐式动态变形结合在一起。前者将粗糙的翘曲返回到规范空间中，而后者隐含的一个隐含物进一步预测了使用4D哈希编码的位移，如我们的重建器中。然后，我们使用获得的动画网格讨论渲染方案，从动态纹理到各种带宽设置下的Lumigraph渲染。为了在质量和带宽之间取得复杂的平衡，我们通过首先渲染6个虚拟视图来涵盖表演者，然后进行闭塞感知的神经纹理融合，提出一个分层解决方案。我们证明了我们方法在各种平台上的各种基于网格的应用程序和照片真实的自由观看体验中的功效，即，通过移动AR插入虚拟人类的表演，或通过移动AR插入真实环境，或带有VR头戴式的人才表演。

translated by 谷歌翻译

IDP-PGFE: An Interpretable Disruption Predictor based on Physics-Guided Feature Extraction

Chengshuo Shen , Wei Zheng , Yonghua Ding , Xinkun Ai , Fengming Xue , Yu Zhong , Nengchao Wang , Li Gao , Zhipeng Chen , Zhoujun Yang

分类：人工智能 | 机器学习

2022-08-28

近年来，破坏预测取得了迅速的进展，尤其是在机器学习（ML）的方法中。理解为什么预测因子使某个预测与未来Tokamak破坏预测指标的预测准确性一样至关重要。大多数破坏预测因素的目的是准确性或跨机能力。但是，如果可以解释中断预测模型，则可以说明为什么某些样品被归类为中断前体。这使我们能够说出传入的破坏类型，并使我们深入了解破坏机制。本文根据J-TEXT上的物理引导特征提取（IDP-PGFE）设计了一种称为可解释的破坏预测变量的破坏预测变量。通过提取物理引导的特征有效地改善了模型的预测性能。需要高性能模型来确保解释结果的有效性。 IDP-PGFE的可解释性研究提供了对J-Text破坏的理解，并且通常与现有的破坏理解一致。 IDP-PGFE已被应用于破坏，因为在J文本上的密度极限实验的密度不断增加。 PGFE的时间演变具有贡献，表明ECRH的应用触发了辐射引起的破坏，从而降低了破坏时的密度。虽然RMP的应用确实提高了J文本中的密度极限。解释性研究指导了RMP不仅会影响MHD不稳定性，而且还会影响辐射轮廓的密度极限破坏的物理机制，从而延迟了密度极限的破坏。

translated by 谷歌翻译

CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for Image-Text Retrieval

Haoran Wang , Dongliang He , Wenhao Wu , Boyang Xia , Min Yang , Fu Li , Yunlong Yu , Zhong Ji , Errui Ding , Jingdong Wang

分类：计算机视觉

2022-08-21

图像文本检索（ITR）在桥接视觉和舌形式方面具有挑战性。对比度学习已被大多数先前的艺术所采用。除了有限的负面图像文本对外，约束学习的能力受到手动加权负对以及对外部知识的不认识的限制。在本文中，我们提出了新型耦合多样性敏感的动量约束学习（编码器），以改善跨模式表示。首先，发明了一种新颖的多样性对比度学习（DCL）体系结构。我们引入了两种模式的动态词典，以扩大图像文本对的比例，并且通过自适应负面对加权实现多样性敏感性。此外，编码器设计了两个分支。一个人从图像/文本中学习实例级的嵌入式，它还基于其嵌入为其输入图像/文本生成伪在线聚类标签。同时，另一个分支学会从常识知识图中查询以形成两种模式的概念级描述符。之后，两个分支都利用DCL来对齐跨模式嵌入空间，而额外的伪聚类标签预测损失则用于促进第二个分支的概念级表示学习。在两个流行的基准测试（即Mscoco和Flicker30k）上进行的广泛实验，验证编码器的表现明显优于最先进的方法。

translated by 谷歌翻译

Masked Spatial-Spectral Autoencoders Are Excellent Hyperspectral Defenders

Jiahao Qi , Zhiqiang Gong , Xingyue Liu , Kangcheng Bin , Chen Chen , Yongqian Li , Wei Xue , Yu Zhang , Ping Zhong

分类：计算机视觉

2022-07-16

深度学习方法论为高光谱图像（HSI）分析社区的发展做出了很大贡献。但是，这也使HSI分析系统容易受到对抗攻击的影响。为此，我们在本文中提出了一个掩盖的空间光谱自动编码器（MSSA），根据自我监督的学习理论，以增强HSI分析系统的鲁棒性。首先，进行了一个掩盖的序列注意学习模块，以促进沿光谱通道的HSI分析系统的固有鲁棒性。然后，我们开发了一个具有可学习的图形结构的图形卷积网络，以建立全局像素的组合。这样，每种组合中的所有相关像素都可以分散攻击效果，并且在空间方面可以实现更好的防御性能。最后，为了提高防御能力并解决有限标记样品的问题，MSSA采用光谱重建作为借口任务，并以自我监督的方式适合数据集。 - 高光谱分类方法和代表性的对抗防御策略。

translated by 谷歌翻译

Global Model Learning for Large Deformation Control of Elastic Deformable Linear Objects: An Efficient and Adaptive Approach

Mingrui Yu , Kangchen Lv , Hanzhong Zhong , Shiji Song , Xiang Li

分类：机器人

2022-05-09

可变形线性对象（DLOS）的机器人操纵在许多领域都具有广泛的应用前景。但是，一个关键问题是获得确切的变形模型（即机器人运动如何影响DLO变形），这些模型在不同的DLOS之间很难计算和变化。因此，DLOS的形状控制具有挑战性，尤其是对于需要全球和更准确模型的大型变形控制。在本文中，我们提出了一种离线和在线数据驱动的方法，用于有效地学习全球变形模型，从而可以通过离线学习进行准确的建模，并通过在线适应进行新的DLOS进行进一步更新。具体而言，由神经网络近似的模型首先是在随机数据的离线训练中，然后无缝迁移到在线阶段，并在实际操纵过程中进一步在线更新。引入了几种策略，以提高模型的效率和泛化能力。我们提出了一个基于凸优化的控制器，并使用Lyapunov方法分析系统的稳定性。详细的仿真和现实世界实验表明，我们的方法可以有效，精确地估计变形模型，并在2D和3D双臂操纵任务中对未经训练的DLO进行大型变形控制，而不是现有方法。它仅使用仿真数据进行离线学习来完成所有24个任务，并在现实世界中不同的DLO上具有不同的所需形状。

translated by 谷歌翻译

Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings

Naoyuki Kanda , Jian Wu , Yu Wu , Xiong Xiao , Zhong Meng , Xiaofei Wang , Yashesh Gaur , Zhuo Chen , Jinyu Li , Takuya Yoshioka

分类：自然语言处理

2022-03-30

本文介绍了流式扬声器的自动语音识别（SA-ASR）模型，该模型可以识别``即使多个人同时讲话，谁说'谁说什么”。我们的模型基于令牌级的序列化输出培训（T-SOT），该培训最近提议以流媒体方式转录多对词的演讲。为了进一步认识说话者的身份，我们提出了一个基于编码器的扬声器嵌入提取器，该扬声器可以估算每个公认的代币的说话者表示，不仅是从非重叠的语音中，而且还来自重叠的语音。所提出的扬声器嵌入为T-vector，与T-SOT ASR模型同步提取，从而可以通过低潜伏期的多词器转录来联合执行说话者识别（SID）或说话者诊断（SD）。我们通过使用LibrisPeechMix和Libralics Corpora评估了ASR和SID/SD联合任务的建议模型。所提出的模型比以前的流媒体模型获得了更高的准确性，并且与最新的离线SA-ASR模型显示出可比甚至更高的结果。

translated by 谷歌翻译